In task-oriented dialogs such as MultiWoZ (Budzianowski et al., 2018), an informative and/or successful system response needs to include necessary key information such as the phone number of a hotel. Therefore, we hypothesize that by helping the model to focus more on learning key quantities in the dialog, the model can generative more informative and helpful responses. In this paper, we propose a new training algorithm, Reinforced Language Modeling (RLM), that aims to use a fine-grained reward function and reinforcement learning to help the model focus more on generating key quantities correctly during test time. Empirical results show our proposed RLM achieves state-of-the-art performance on the inform rate, success rate, and combined score in MultiWoZ.
translated by 谷歌翻译
Person re-identification plays a significant role in realistic scenarios due to its various applications in public security and video surveillance. Recently, leveraging the supervised or semi-unsupervised learning paradigms, which benefits from the large-scale datasets and strong computing performance, has achieved a competitive performance on a specific target domain. However, when Re-ID models are directly deployed in a new domain without target samples, they always suffer from considerable performance degradation and poor domain generalization. To address this challenge, we propose a Deep Multimodal Fusion network to elaborate rich semantic knowledge for assisting in representation learning during the pre-training. Importantly, a multimodal fusion strategy is introduced to translate the features of different modalities into the common space, which can significantly boost generalization capability of Re-ID model. As for the fine-tuning stage, a realistic dataset is adopted to fine-tune the pre-trained model for better distribution alignment with real-world data. Comprehensive experiments on benchmarks demonstrate that our method can significantly outperform previous domain generalization or meta-learning methods with a clear margin. Our source code will also be publicly available at https://github.com/JeremyXSC/DMF.
translated by 谷歌翻译
我们开发了WOC,这是一个基于网络摄像头的3D虚拟在线聊天室,用于多人交互,该聊天介绍了用户的3D运动,并实时驱动其单独的3D虚拟化头像。与现有的基于可穿戴设备的解决方案相比,WOC使用单个相机提供方便和低成本的3D运动捕获。为了促进身临其境的聊天体验,WOC提供了高保真虚拟化的化身操纵,这也支持用户定义的字符。使用分布式数据流服务,系统为所有用户提供高度同步的运动和声音。部署在网站上,无需安装,用户可以在https://yanch.cloud上自由体验虚拟在线聊天。
translated by 谷歌翻译
本文通过连续行动解决了非平稳环境和游戏中的政策学习。我们提出了一种无需重新格局样式的增强算法porl,而不是受到跟随规范化领导者(FTRL)和镜像下降(MD)更新的想法的启发,而不是经典的奖励最大化机制。我们证明,PORL具有最后的融合保证,这对于对抗和合作游戏很重要。实证研究表明,在控制任务的静态环境中,PORL的性能同样好,甚至比软crip-Critic(SAC)算法更好。在包括动态环境,对抗性训练和竞争性游戏在内的非机构环境中,PORL在更好的最终政策表现和更稳定的培训过程中都优于SAC。
translated by 谷歌翻译
在本文中,我们研究了基于骨架的动作识别的问题,该问题在学习从基础阶级到新颖类的可转移表示方面构成了独特的挑战,尤其是针对细粒度的动作。现有的元学习框架通常依赖于空间维度中的身体级表示,这限制了概括以捕获细粒标签空间中细微的视觉差异。为了克服上述局限性,我们提出了一种基于单发骨架的动作识别的部分感知的原型代表。我们的方法捕获了两个独特的空间级别的骨架运动模式,一种用于所有身体关节的全球环境,称为身体水平,另一个则参与了身体部位的局部空间区域,称为零件水平。我们还设计了一种类不足的注意机制,以突出每个动作类别的重要部分。具体而言,我们开发了一个由三个模块组成的零件感知原型图网络:我们的双层建模的级联嵌入模块,一个基于注意力的零件融合模块,用于融合零件并生成零件感知的原型,以及可以执行匹配的模块。与部分意识表示的分类。我们证明了我们方法对两个基于公共骨架的动作识别数据集的有效性:NTU RGB+D 120和NW-UCLA。
translated by 谷歌翻译
拓扑不平衡是由标记节点的不均匀拓扑位置引起的一个特异性不平衡问题,它大大损害了GNN的性能。什么拓扑不平衡意味着如何衡量其对图形学习的影响。在本文中,从全球视图中,我们对监督信息分布的全球视图提供了对拓扑 - 不平衡的新理解,从不足和过度划分的角度来看,这激发了两个定量指标作为测量。鉴于我们的分析,我们提出了一个新颖的位置感知的图形结构学习框架,该框架名为柔和,该框架直接优化了信息传播路径并解决了本质上解决拓扑 - 不平衡问题。我们的关键见解是增强同一类中节点的连接性,以获取更多的监督信息,从而减轻不足和过度的现象。具体而言,我们设计了一个基于锚的位置编码机制,该机制可以更好地结合相对拓扑位置并通过最大化标签影响来增强类内部电感偏置。我们进一步提出了作为边缘权重的阶级冲突度量,这有利于不同节点类别的分离。广泛的实验表明,在不同的数据注释方案中增强GNNS的功率方面,柔和的能力具有较高的潜力和适应性。
translated by 谷歌翻译
随着对用户数据隐私的越来越关注,联合学习(FL)已被开发为在边缘设备上训练机器学习模型的独特培训范式,而无需访问敏感数据。传统的FL和现有方法直接在云服务器的同一型号和培训设备的所有边缘上采用聚合方法。尽管这些方法保护了数据隐私,但它们不能具有模型异质性,甚至忽略了异质的计算能力,也可以忽略陡峭的沟通成本。在本文中,我们目的是将资源感知的FL汇总为从边缘模型中提取的本地知识的集合,而不是汇总每个本地模型的权重,然后将其蒸馏成一个强大的全局知识,作为服务器模型通过知识蒸馏。通过深入的相互学习,将本地模型和全球知识提取到很小的知识网络中。这种知识提取使Edge客户端可以部署资源感知模型并执行多模型知识融合,同时保持沟通效率和模型异质性。经验结果表明,在异质数据和模型中的通信成本和概括性能方面,我们的方法比现有的FL算法有了显着改善。我们的方法将VGG-11的沟通成本降低了102美元$ \ times $和Resnet-32,当培训Resnet-20作为知识网络时,最多可达30美元$ \ times $。
translated by 谷歌翻译
基于单个草图图像重建3D形状是由于稀疏,不规则的草图和常规,密集的3D形状之间的较大域间隙而具有挑战性的。现有的作品尝试采用从草图提取的全局功能来直接预测3D坐标,但通常会遭受失去对输入草图不忠心的细节。通过分析3D到2D投影过程,我们注意到表征2D点云分布的密度图(即,投影平面每个位置的点的概率)可以用作代理,以促进该代理重建过程。为此,我们首先通过图像翻译网络将草图翻译成一个更有信息的2D表示,可用于生成密度映射。接下来,通过两个阶段的概率采样过程重建一个3D点云:首先通过对密度映射进行采样,首先恢复2D点(即X和Y坐标);然后通过在每个2D点确定的射线处采样深度值来预测深度​​(即Z坐标)。进行了广泛的实验,定量和定性结果都表明,我们提出的方法显着优于其他基线方法。
translated by 谷歌翻译
不确定性是时间序列预测任务的重要考虑因素。在这项工作中,我们专门致力于量化流量预测的不确定性。为了实现这一目标,我们开发了深层时空的不确定性定量(DeepStuq),可以估计核心和认知不确定性。我们首先利用时空模型来对流量数据的复杂时空相关性进行建模。随后,开发了两个独立的次神经网络,以最大化异质对数可能性,以估计不确定性。为了估计认知不确定性,我们通过整合蒙特卡洛辍学和平均自适应重量的重新训练方法来结合变异推理和深层结合的优点。最后,我们提出了基于温度缩放的后处理校准方法,从而提高了模型的概括能力估计不确定性。在四个公共数据集上进行了广泛的实验,经验结果表明,就点预测和不确定性量化而言,所提出的方法优于最先进的方法。
translated by 谷歌翻译
可以通过看不见的合作伙伴生成可以实现零拍打协调(ZSC)的代理是在合作多代理增强学习(MARL)中的新挑战。最近,一些研究通过在培训过程中将代理暴露于不同的伴侣中,从而在ZSC中取得了进展。他们通常在训练伴侣时涉及自我竞争,因为他们隐含地假设任务是同质的。但是,许多现实世界的任务都是异质的,因此以前的方法可能会失败。在本文中,我们首次研究了异质ZSC问题,并提出了一种基于协同进化的通用方法,该方法通过三个子过程进行了协调的两个代理和合作伙伴种群:配对,更新和选择。协作烹饪任务的实验结果表明需要考虑异质环境,并说明我们所提出的方法是异构合作MARL的有前途解决方案。
translated by 谷歌翻译